其他
浅谈以数据为中心的人工智能
导读:Magic Data 创立于 2016 年,是一家全球领先 AI 数据解决方案提供商,为人工智能领域、研发企业和科研机构提供智能化标注平台、AI 数据集和采标服务三大核心产品。创始人张晴晴博士毕业于中科院,在人工智能领域从业已经近 20 年,本次带来题为《浅谈以数据为中心的人工智能》的分享,主要内容分为:
公司介绍
以数据为中心的 AI
Data-Centric MLOps 介绍
汽车行业应用实践
总结
分享嘉宾|张晴晴博士 Magic Data 创始人兼CEO
编辑整理|徐韵婉
01
公司介绍
经典路线(以模型为中心的人工智能):关心如何迭代模型来提高效能 新趋势(以数据为中心的人工智能):关心如何系统性地迭代数据输入和数据标签来提高效能
覆盖面广:只有获取的数据量足够多且覆盖范围足够广泛,AI 才能更好地进行学习和推理 多维度:数据标签的维度越多,越能对事物进行更加精细地刻画 时效性:不同的年份,不同的时间段采集的数据具有不同的价值 高精度:数据的精度不是越高越好,要根据成本进行取舍 合规性:只有当合规性存在时,数据其余的价值才会体现
场景定义:首先要明确需要解决的问题是什么,这通常由行业专家来完成 数据采集:制定数据采集的标准,实施数据采集 数据标注:结合行业专家的行业经验进行多维度、高精度数据标注 再通过训练模型迭代数据直到达到生产标准 最后进行线上投产,这就形成了机器学习的运维闭环
ASR-语音数据标注:对采集到的语音数据进行高维度标注。比如语音录入者的性别、年龄、是否有口音等等。
域控制器-意图槽位分析:智能座舱内的语音指令要对应到域控制器的行为,首先要对语音信息进行意图槽位分析。比如在“来一首王心凌的《爱你》”中,意图是“播放音乐”,“王心凌”是歌手,“《爱你》”是音乐。经过意图槽位分析之后,就可以把需要完成的动作传达给域控制器。
OMS-图像标注:智能座舱里面很重要的一个应用场景就是乘客的行为监控(OMS),主要是在驾驶过程中关注乘客有没有出现一些异常情况。比如一些安全预警,或者驾驶员出现打瞌睡,或者后座有没有小朋友把头探出去等等。在对该类场景的模拟数据进行准备的时候,需要对人的姿态、人脸等等进行标注。
其他第三方提供模型 MD 生态伙伴提供模型 MD 自研模型
客服对话:识别率提升提升 5% 直播社交:识别率提升提升 9% 车载导航:识别率提升提升 11%
Data-Centric AI 相比于对模型的调优,更强调对数据的管理 AI 模型只有在业务闭环中更新迭代,才可以获取持续性优化 数据是解决 AI 的难点和重点,目前算法工程师有 80% 在解决数据问题 Data-Centric MLOps 可以降低机器学习技术门槛,帮助业务快速实现智能化
今天的分享就到这里,谢谢大家。
|分享嘉宾|
|往期文章推荐|
|免费直播&资料||DataFun新媒体矩阵|
|商务合作|
|关于DataFun|
专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。
🧐 分享、点赞、在看,给个3连击呗!👇